Entrega Final de curso
Resumen de la base
Eventos
El objetivo del presente trabajo es encontrar y modelar los determinantes de éxito de una posesión en el contexto de un partido de fútbol. Para ello, se cuenta con información relativa a los 64 partidos de los mundiales masculino y femenino disputados en Qatar en 2022 y Australia/Nueva Zelanda en 2023, respectivamente. Concretamente, se cuenta con datos de eventing de la consultora especializada StastBomb y se obtuvieron a través de su paquete en R ‘StatsBombR’. Dichos datos de eventing refieren al registro de cada una de las acciones que realizan los jugadores con la pelota en cada uno de los partidos. Dicha base está compuesta por los distintos eventos que se realizaron en el transcurso de cada encuentro y variables asociadas a cada tipo de evento según corresponda (184 variables y 459967 observaciones entre los 2 mundiales). Se considera un evento cada una de las acciones realizadas, ya sea por los jugadores (pases, tiros al arco, atajadas, regates, traslados de balón, etc) así como del resto de los actores de un partido de fútbol (sustituciones, tarjetas, inicio/final de partido, entre otras). Las posesiones están compuestas por varios de estos tipos de acciones. En este caso, la base cuenta con 33 tipos de eventos distintos. Algunos de estas accionesno refieren específicamente a situaciones de juego tales como incios y finales de partidos, sustituciones de jugadores, formaciones iniciales, tarjetas mostradas por el juez, cambios tácticos, sueltas neutrales de balón y pausas en el partido ya sea por lesión u otra situación excepcional. Estos eventos no serán tenidos en cuenta en el análisis ya que se considera que no aportan nada desde el punto de vista del juego y de las posesiones dentro del mismo.
En ese sentido se trabajará con las acciones de juego que involucren la pelota o la disputa de ésta. Mayoritariamente tenemos pases pero también se registran traslados con pelota controlada (Carry), recepción de balón (Ball Receipt), acciones defensivas de presión hacia un rival (Pressure), recuperaciones de pelota (Ball Recovery), duelos (Duel), despejes (Clearance), tiros al arco (Shot), regates (Dribble), atajadas (Goal Keeper), entre otros.
En este contexto se buscará estudiar las distintas secuencias de los equipos en cuanto tienen la posesión a su favor (possession). En ese sentido, tomando en cuenta ambas copas del mundo se cuenta en total con un promedio de un poco más de 177 posesiones por partido para el mundial masculino mientras que un poco menos de 193 para el femenino.
Por lo tanto, nuestra observaciones pasarán a ser las posesiones y no los distintos eventos. A estos efectos, con la información contenida en los datos de eventing se conformó una base que nos permite describir cada una de estas secuencias para su posterior estudio y clasificación. Para ello, en una primera instancia, no se trabajará con todas las posesiones sino que por simplicidad nos quedaremos únicamente con aquellas posesiones en las cuales las acciones en las mismas son realizadas por el equipos poseedor del balón o, en su defecto, que las acciones del rival no involucren directamente la pelota: acciones de presión, faltas cometidas o recibidas, atajadas del golero y/o jugadores dribleados del conjunto que está defendiendo (Dribbled Past). De esta manera, la trayectoria de la pelota se ve únicamente afectada por las acciones realizadas por el equipo que tiene la posesión y no por el rival. Nos quedaremos finalmente con 4961 posesiones a nivel masculino y 4409 del mundial femenino para estudiar la trayectoria de la pelota en esas secuencias.
Características de las posesiones
A través de los datos se generará una nueva base que contenga características de las casi 10000 secuencias a estudiar. La elección de dichas características es un tanto arbitraria pero se entiende que pueden ser de valor o utilidad a la hora de describir o encontrar ciertos patrones o estilos de juego:
coordenadas de inicio y fin de la posesión (así como las zonas de inicio y fin)
cantidad de pases y de traslados de balón (totales y exitosos)
cantidad de tiros, de centros, de cambios de frente, de ingresos al área rival con pelota controlado, pases dentro del área y de eventos en general realizados
promedio de avance en el terreno según sea por pases o traslados con pelota controlada
si la jugada es iniciada por el golero
si el golero participa o no de la secuencia
si termina en un tiro al arco o en gol
velocidad promedio de la posesión teniendo en cuenta los pases y conducciones hacia adelante
distancia promedio y mediana de la jugada
cantidad de zonas por la que pasa la jugada
duración (en segundos) de la posesión
División en zonas
También podría ser útil tener en consideración no sólo dónde inició y terminó cada jugada sino que también de alguna manera replicar la trayectoria de la pelota en la secuencia. Para ello, se propone dividir la cancha en zonas y analizar hacia dónde el equipo llevó el balón y por cuántos sectores (zonas) del terreno pasó la pelota en la jugada. Cabe aclarar que para el conteo de zonas se tendrá en cuenta únicamente aquellas zonas dónde se realizaron acciones y no necesariamente por dónde pasó la pelota.
Idea del modelo
El objetivo del modelo es clasificar las jugadas en exitosas o no exitosas, con un criterio de éxito definido subjetivamente. Para ello, se analizarán distintas características de cada jugada, buscando identificar las variables que permitan predecir con mayor precisión si una jugada será exitosa o no.
Después de la descripción de los datos, se propone la creación de una variable objetivo (a predecir) denominada éxito, que tomará un valor binario para representar el éxito o fracaso de cada jugada.
A continuación, se realizará un análisis exploratorio de datos (EDA) enfocado en esta variable, observando cómo se comporta en función de las características de las jugadas. Este análisis permitirá identificar patrones y relaciones que puedan ser útiles en la clasificación y mejora del rendimiento del modelo.
La variable éxito se define a partir de la categorización de las jugadas:
Si la jugada termina en un tiro al arco
Si la jugada termina en un córner a favor
Si la mayoría de las acciones se realizan bajo presión del rival y pese a ello se logra mantener la posesión
Si la secuencia logra llegar hasta el área rival
Si la posesión comienza en campo propio y logra llevar al tercio final con al menos 3 acciones
Si el rival no logra recuperar la pelota y comete falta
Tanto las trayectorias en las que el rival logra recuperar la pelota así como aquellas que no cumplen ninguna de las 6 condiciones mencionadas se califican como no exitosas (variable exito=0)
Variables a usar
| Características de las Variables para el Modelo | ||
|---|---|---|
| Variable | Descripción | Tipo |
| possession | Posesión del balón | Numérica |
| period | Período del partido | Categórica |
| possession_team.id | ID del equipo en posesión | Numérica |
| possession_team.name | Nombre del equipo en posesión | Categórica |
| team.name | Nombre del equipo | Categórica |
| x_inicio | Coordenada X de inicio | Numérica |
| y_inicio | Coordenada Y de inicio | Numérica |
| x_fin | Coordenada X de fin | Numérica |
| y_fin | Coordenada Y de fin | Numérica |
| n_eventos | Número de eventos | Numérica |
| n_pases | Número de pases | Numérica |
| n_pasesC | Número de pases completados | Numérica |
| n_traslados | Número de traslados | Numérica |
| prom_av_p | Promedio de avance en pase | Numérica |
| prom_av_t | Promedio de avance en traslado | Numérica |
| n_jugadores | Número de jugadores en la jugada | Numérica |
| n_centros | Número de centros | Numérica |
| n_cdf | Número de centros fallidos | Numérica |
| n_pases_arearival | Número de pases al área rival | Numérica |
| n_ingresos_arearival | Número de ingresos al área rival | Numérica |
| inicia_golero | Si la jugada inicia con el golero | Binaria |
| resultado | Estado del marcador al momento de la jugada | Categórica |
| zona_inicio | Zona de inicio | Categórica |
| zona_fin | Zona de fin | Categórica |
| xG | Ni idea | Numérica |
| vel_media_p | Velocidad media en pase | Numérica |
| vel_media_c | Velocidad media en conducción | Numérica |
| exito | Resultado de éxito | Binaria |
EDA
Se observa una dispersión mayor en la diferencia en el eje X en las jugadas exitosas respecto de las no exitosas. Además, se observa que la mayoria de las jugadas exitosas están concentradas en torno al 0, lo cual tiene sentido ya que son dichas secuencias empiezan y terminan en el mismo lugar.
En este caso el comportamiento no es diferente entre las jugadas que son exitosas y las que no.
Aunque la mayoría de las jugadas tanto exitosas como no exitosas se concentran cercanas a tiempo 0 , la concentración en 0 es mucho mayor en las jugadas que no exitosas.
Aunque los histogramas son similares, no es un detalle menor la moda de la cantidad de pases en la jugada, que es mayor en las secuencias exitosas que en las no exitosas.
Tanto en la cantidad de traslados como en la cantidad de jugadores que participan en la jugada, se observa una mayor concentración de valores cercanos a 0 en las jugadas que no son exitosas.
Modelos
Se proponen 3 modelos distintos para el problema de clasificación de la variable éxito. Un modelo logístico, un Random Forest (RF) y un LightGBM (LGBM). La idea es usar la regresión logística para entender como influyen los distintos factores en la variable éxito sin perder la interpretabilidad de los resultados. Los otros dos se proponen con la idea de predecir dicha variable usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos sobreajuste (RF) mientras que el otro produce un menor error en la validación (LGBM).
Modelos
Se proponenen 3 modelos distintos para el problema de clasificación de la variable exito. Uno logistico, un random forest y un LightGBM. La idea es usar la regresión logística para entender como influyen los distintos factores en la variable exito sin perder la interpretabilidad de los resultados. Los otros dos se prponen más con la idea de predecir la variable exito usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos overfitting(random forest) y otro produce menos error en la validación(LightGBM).
Lasso
Se utiliza inicialmente un modelo de regresión logística como primer enfoque debido a su capacidad para proporcionar una interpretación clara y directa de las relaciones entre las variables predictoras y el resultado.
Matriz de Confusion
Arbol de Decisión
Random Forest
Visualización de la evolución de las métricas según los parámetros
Matriz de Confusion
Importancia de las variables
LightGBM
Visualización de la evolución de las métricas según los parámetros
Matriz de Confusion
Evalución de los modelos
Datos de testeo
| Model Performance Metrics | ||||
|---|---|---|---|---|
| Model | Accuracy | Sensitivity | Specificity | ROC AUC |
| Lasso | 0.784 | 0.745 | 0.819 | 0.861 |
| Decision Tree | 0.867 | 0.844 | 0.888 | 0.933 |
| Random Forest | 0.897 | 0.912 | 0.884 | 0.958 |
| LightGBM | 0.899 | 0.900 | 0.898 | 0.965 |